Методичні вказівки
до лабораторної роботи №2
“Класифікація та регресія.
Методи та алгоритми побудови дерев рішень”
з дисципліни
“Інтелектуальний аналіз даних”
Лабораторна робота №2
Мета: Оволодіти методами та алгоритмами побудови дерев рішень.
Етап 1. Формулювання завдання.
Насамперед необхідно відкинути всі фактори, що не стосуються проблеми, а серед безлічі тих, що залишилися, виділити суттєві і несуттєві. Це дозволить привести опис завдання щодо прийняття управлінського рішення у форму, що піддається аналізу. Повинні бути виконані такі основні процедури:
визначення можливостей збору інформації для експериментування і реальних дій;
складання переліку подій, що з певною імовірністю можуть відбутися;
установлення часового порядку розміщення подій, у наслідках яких міститься корисна і доступна інформація, і тих послідовних дій, які можна розпочати.
Оскільки нам потрібно побудувати дерево рішень яке б розв’язувало завдання для якоїсь спортивної події чи змагання, а саме відповідало на питання чи отримає учасник медаль нам потрібно створити даних, аналіз яких дозволив нам б відсіяти слабких спортсменів, і залишити учасників які б мали великі шанси на завоювання медалі у стрільбі,плаванні чи шахах.
Для побудови нашого дерева рішень ми маєм 3 категорії інформації.
Вид спорту.
Очки.
Час.
Саме ці фактори (Вид, очки і час) є суттєвими для нашого рішення, і дозволять привести опис завдання щодо прийняття управлінського рішення у форму, що піддається аналізу.
Побудова дерева рішень
Завдання 10
Нехай потрібно побудувати дерево рішень, задача якого – відповісти на питання: «Чи буде медаль?». Щоб вирішити задачу, тобто оцінити чи буде у спортсмена медаль, необхідно віднести дану ситуацію до одного з відомих класів (в цьому випадку це два класи: «Буде медаль» та «Не буде медалі»). Для цього потрібно проаналізувати ряд даних).
Таблиця 10
Вид спорту
Очки
Час(хв)
Чи буде медаль?
Стрільба
40
2
Ні
Стрільба
100
2
Так
Плавання
20
1
Ні
Плавання
110
2
Так
Шахи
100
15
Так
Шахи
30
15
Ні
Зрозуміло, що дерево прийняття рішень буде набувати різних виглядів в залежності від послідовності обирання атрибутів на кожній ітерації алгоритму ID3. Зазвичай атрибути впорядковуються за важливістю, яку може заздалегідь визначити експерт в галузі проблеми задачі.
Алгоритм ID3 – один із найважливіших методів індуктивного відновлення правил за прикладами, який забезпечує автоматичну побудову баз знань діагностичних експертних систем.
Класифікація і регресія
В задачі класифікації і регресії потрібно виділити значення залежної змінної об’єкту на основі значень інших змінних, які характеризують даний об’єкт. Формально задачу класифікації і регресії можна описати наступним чином. Нехай ми маємо множину об’єктів:
I = {i1,i2…,ij,…,in}
де іj – досліджуваний об’єкт. Прикладом таких об’єктів може бути інформація про спортсменів та отримання ними медалі.(табл. 5.1).
Вид спорту
Очки
Час(хв)
Чи буде медаль?
Стрільба
40
2
Ні
Стрільба
100
2
Так
Плавання
20
1
Ні
Плавання
110
2
Так
Шахи
100
15
Так
Шахи
30
15
Ні
Табл. 5.1. Інформація про медалі в залежності від часу та очок.
Кожен об’єкт характеризується набором змінних: Іj = {x1,x2,…,xh,…,xm,y},
де xh – незалежні змінні, значення яких відомі і на основі них знаходиться значення залежної змінної y. В даному прикладі незалежні змінні являються: спостереження, температура, вологість і вітер. Залежною змінною являється гра.
В Data Mining часто набір незалежних змінних позначають у вигляді вектора:
X = {x1, x2, …, xh, …, xm}, (1)
Кожна змінна xh може приймати значення із деякого проміжку:
Ch = {ch1, ch2, …}, (2)
Якщо значеннями змінної являються елементи скінченної множини, то говорять, що вона має категоріальний тип. Наприклад, змінна спостереження приймає значення на множині значень (сон...